通过回顾一封来自情节记忆的过去的经验,可以通过回忆过去的经验来实现钢筋学习的样本效率。我们提出了一种新的基于模型的轨迹的集体记忆,解决了集体控制的当前限制。我们的记忆估计轨迹值,指导代理人朝着良好的政策。基于内存构建,我们通过动态混合控制统一模型的基于动态和习惯学习来构建互补学习模型,进入单个架构。实验表明,我们的模型可以比各种环境中的其他强力加强学习代理更快,更好地学习,包括随机和非马尔可夫环境。
translated by 谷歌翻译
无数据知识蒸馏(DFKD)最近引起了人们的关注,这要归功于其在不使用培训数据的情况下将知识从教师网络转移到学生网络的吸引力。主要思想是使用发电机合成数据以培训学生。随着发电机的更新,合成数据的分布将发生变化。如果发电机和学生接受对手的训练,使学生忘记了先前一步获得的知识,则这种分配转换可能会很大。为了减轻这个问题,我们提出了一种简单而有效的方法,称为动量对抗蒸馏(MAD),该方法维持了发电机的指数移动平均值(EMA)副本,并使用发电机和EMA生成器的合成样品来培训学生。由于EMA发电机可以被视为发电机旧版本的合奏,并且与发电机相比,更新的更改通常会发生较小的变化,因此对其合成样本进行培训可以帮助学生回顾过去的知识,并防止学生适应太快的速度发电机的新更新。我们在六个基准数据集上进行的实验,包括ImageNet和Place365,表明MAD的性能优于竞争方法来处理大型分配转移问题。我们的方法还与现有的DFKD方法相比,甚至在某些情况下达到了最新的方法。
translated by 谷歌翻译
知识蒸馏(KD)是一种有效的方法,可以将知识从大型“教师”网络转移到较小的“学生”网络。传统的KD方法需要大量标记的培训样本和白盒老师(可以访问参数)才能培训好学生。但是,这些资源并不总是在现实世界应用中获得。蒸馏过程通常发生在我们无法访问大量数据的外部政党方面,并且由于安全性和隐私问题,教师没有披露其参数。为了克服这些挑战,我们提出了一种黑盒子少的KD方法,以培训学生很少的未标记培训样本和一个黑盒老师。我们的主要思想是通过使用混合和有条件的变异自动编码器生成一组不同的分布合成图像来扩展训练集。这些合成图像及其从老师获得的标签用于培训学生。我们进行了广泛的实验,以表明我们的方法在图像分类任务上明显优于最近的SOTA/零射击KD方法。代码和型号可在以下网址找到:https://github.com/nphdang/fs-bbt
translated by 谷歌翻译
对基于深度学习的模型的对抗性攻击对当前的AI基础架构构成了重大威胁。其中,特洛伊木马袭击是最难防御的。在本文中,我们首先引入了Badnet类型的攻击变体,该攻击将特洛伊木马后门引入多个目标类,并允许将触发器放置在图像中的任何位置。前者使其更有效,后者使在物理空间中进行攻击变得非常容易。这种威胁模型的最先进的特洛伊木马检测方法失败了。为了防止这种攻击,我们首先引入了一种触发反向工程机制,该机制使用多个图像来恢复各种潜在的触发器。然后,我们通过测量此类恢复触发器的可传递性提出了检测机制。特洛伊木马触发器的可传递性将非常高,即它们使其他图像也进入同一类。我们研究攻击方法的许多实际优势,然后使用各种图像数据集证明检测性能。实验结果表明,我们方法的卓越检测性能超过了最新的。
translated by 谷歌翻译
我们为策略梯度强化学习引入了一种约束的优化方法,该方法使用虚拟信任区域来调节每个策略更新。除了将一个单一旧政策作为正常信任区域的邻近性外,我们还建议通过另一个虚拟策略形成第二个信任区域,代表了过去的各种过去的政策。然后,我们执行新政策,以保持更靠近虚拟政策,如果旧政策的运作差,这将是有益的。更重要的是,我们提出了一种机制,可以自动从过去政策的记忆中自动构建虚拟策略,从而为在优化过程中动态学习适当的虚拟信任区域提供了新的能力。我们提出的方法是在不同的环境中进行检查,包括机器人运动控制,带有稀疏奖励和Atari游戏的导航,始终如一地证明了针对最近的上政策限制性策略梯度方法,在各种环境中进行了检查。
translated by 谷歌翻译
特洛伊木马对深度神经网络的攻击既危险又秘密。在过去的几年中,特洛伊木马的攻击从仅使用单个输入 - 不知不线的触发器和仅针对一个类别使用多个输入特异性触发器和定位多个类的类别。但是,特洛伊木马的防御尚未赶上这一发展。大多数防御方法仍然使对特洛伊木马触发器和目标类别的假设不足,因此,现代特洛伊木马的攻击很容易被规避。为了解决这个问题,我们提出了两种新颖的“过滤”防御措施,称为变分输入过滤(VIF)和对抗输入过滤(AIF),它们分别利用有损数据压缩和对抗性学习,以有效地纯化潜在的Trojan触发器,而无需在运行时间内触发潜在的Trojan触发器。对触发器/目标类的数量或触发器的输入依赖性属性做出假设。此外,我们还引入了一种称为“过滤 - 对抗性”(FTC)的新防御机制,该机制有助于避免通过“过滤”引起的清洁数据的分类准确性下降,并将其与VIF/AIF结合起来,从种类。广泛的实验结果和消融研究表明,我们提议的防御能力在减轻五次高级特洛伊木马攻击方面显着优于众所周知的基线防御能力,包括最近的两次最新一次,同时对少量训练数据和大型触发器非常强大。
translated by 谷歌翻译
我们为政策梯度方法介绍了一种新颖的训练程序,其中用于在飞行中优化强化学习算法的超参数。与其他HyperParameter搜索不同,我们将HyperParameter调度标记为标准的Markov决策过程,并使用epiSodic内存来存储所使用的超参数和培训背景的结果。在任何策略更新步骤中,策略学习者都指的是存储的经验,并自适应地将其学习算法与存储器确定的新的超参数重新配置。这种机制被称为epiSodic政策梯度训练(EPGT),可以联合学习单个运行中的策略和学习算法的封面。连续和离散环境的实验结果证明了利用所提出的方法促进各种政策梯度算法的性能的优点。
translated by 谷歌翻译
脱机策略学习(OPL)利用现有数据收集了策略优化的先验,而无需任何活动探索。尽管存在普遍性和近期对此问题的兴趣,但其函数近似设置中的理论和算法基础仍然持续开发。在本文中,我们考虑了在具有神经网络的离线上下文匪徒中的分布换档,优化和泛化轴上的这个问题。特别是,我们提出了一种可从线有效的离线情境匪徒,具有神经网络函数近似,不需要对奖励的任何功能假设。我们表明,我们的方法在较温和的情况下通过不良语境提供了比现有的OPL工作的分支变换。值得注意的是,与任何其他OPL方法不同,我们的方法使用随机梯度血统以在线方式从脱机数据中学习,允许我们利用在线学习的优势进入离线设置。此外,我们表明我们的方法更加计算效率,并且更好地依赖于神经网络的有效维度而不是在线对应物。最后,我们展示了我们在一系列合成和现实世界OPL问题中的方法的实证效果。
translated by 谷歌翻译
Q学习目标的乐观性质导致高度估计偏差,这是与标准$ Q-$学习相关的固有问题。这种偏差未能考虑低返回的可能性,特别是在风险方案中。然而,偏差的存在,无论是高估还是低估,不一定都不需要不可取。在本文中,我们分析了偏见学习的效用,并表明具体类型的偏差可能是优选的,这取决于场景。基于这一发现,我们设计了一种新颖的加强学习算法,平衡Q学习,其中将目标被修改为悲观和乐观术语的凸起组合,其相关权重分析地确定在线确定。我们在表格设置中证明了该算法的收敛,并经验证明了其在各种环境中的优越学习性能。
translated by 谷歌翻译
离线增强学习(RL)利用了先前收集的数据进行策略优化,而无需进行任何进一步的积极探索。尽管最近对这个问题引起了人们的兴趣,但其对神经网络功能近似设置的理论结果仍然有限。在本文中,我们研究了具有深层Relu网络函数近似的离线RL的统计理论。特别是,我们建立了$ \ tilde {\ mathcal {o}} \ left(\ kappa^{1 + d/\ alpha} \ cdot \ epsilon^{ - 2-2-2d/\ alpha} \ right)的样本复杂度$ for Offline RL带有深层relu网络,其中$ \ kappa $是分配变化的度量,$ d $是国家行动空间的尺寸,$ \ alpha $是基础马尔可夫的(可能是分数)平滑度参数决策过程(MDP)和$ \ epsilon $是用户指定的错误。值得注意的是,我们的样本复杂性在两个新颖的考虑因素下,即动态闭合和离线RL的价值回归产生的相关结构。尽管BESOV动态闭合在先前的作品中概括了离线RL的动态条件,但相关结构使离线RL的先前工作与常规/神经网络功能近似不当或效率低下。据我们所知,这是离线RL样品复杂性具有深层神经网络功能近似的第一个理论表征,该效果在普遍的BESOV规律性条件下,超出了传统的繁殖Hilbert内核空间和神经切线内核的范围。
translated by 谷歌翻译